Clustering Evaluation এবং Silhouette Score

Machine Learning - নাইম (Knime) - Clustering Techniques

206

Clustering হল একটি অ্যানালিটিক্যাল পদ্ধতি যেখানে ডেটা পয়েন্টগুলিকে কিছু নির্দিষ্ট গ্রুপে (বা ক্লাস্টারে) ভাগ করা হয়, যাতে এক ক্লাস্টারের সদস্যদের মধ্যে মিল বেশি এবং অন্যান্য ক্লাস্টারের সদস্যদের মধ্যে পার্থক্য বেশি হয়। কিন্তু, clustering এর ফলাফলকে কীভাবে মূল্যায়ন করা হয়? এর জন্য বিভিন্ন evaluation metrics ব্যবহার করা হয়। একটিই জনপ্রিয় মেট্রিক হল Silhouette Score।

Clustering Evaluation:

Clustering এর মূল্যায়ন করতে কয়েকটি পদ্ধতি রয়েছে, যেগুলি দেখতে হলে আগে জানতে হবে যে, কতটা "ভাল" clustering হয়েছে। সাধারণত দুটি প্রধান দিকের উপর ভিত্তি করে clustering এর কার্যকারিতা মূল্যায়ন করা হয়:

Compactness: এক ক্লাস্টারের মধ্যে সদস্যদের কাছাকাছি থাকা উচিত। যদি ক্লাস্টারের সদস্যরা একে অপর থেকে অনেক দূরে থাকে, তবে এটি একটি খারাপ ক্লাস্টারিং হবে।
Separation: বিভিন্ন ক্লাস্টারের মধ্যে স্পষ্ট পার্থক্য থাকা উচিত। যদি এক ক্লাস্টার এবং অন্য ক্লাস্টারের মধ্যে সীমা অস্পষ্ট হয়, তবে এটি একটি খারাপ clustering নির্দেশ করে।

এছাড়াও, অন্যান্য জনপ্রিয় clustering evaluation metrics গুলি হল:

Within-cluster sum of squares (WCSS)
Davies-Bouldin Index
Dunn Index
Adjusted Rand Index (ARI)

এখন, এই সকল মেট্রিকের মধ্যে Silhouette Score একটি বিশেষ গুরুত্বপূর্ণ এবং সহজে বোঝা যায় এমন মেট্রিক।

Silhouette Score

Silhouette Score clustering-এর মান মূল্যায়ন করতে ব্যবহৃত হয়, যা প্রতিটি ডেটা পয়েন্টের ক্লাস্টারের মধ্যে এবং অন্য ক্লাস্টারের মধ্যে দূরত্বের ভিত্তিতে একটি স্কোর প্রদান করে। এটি ক্লাস্টারিংয়ের ভেতরে compactness এবং ক্লাস্টারগুলির মধ্যে separation উভয়কেই মূল্যায়ন করে।

Silhouette Score এর গাণিতিক সূত্র:

Silhouette Score একটি ডেটা পয়েন্টের জন্য দুটি মান গণনা করে:

a(i): ডেটা পয়েন্ট i এর ক্লাস্টারে থাকা অন্যান্য পয়েন্টগুলির সাথে এর গড় দূরত্ব (এটি ক্লাস্টারের মধ্যে "compactness" বুঝায়)।
b(i): ডেটা পয়েন্ট i এর সবচেয়ে নিকটতম অন্য ক্লাস্টারের পয়েন্টগুলির সাথে এর গড় দূরত্ব (এটি ক্লাস্টারের মধ্যে "separation" বা পার্থক্য বুঝায়)।

Silhouette Score (S(i)) এর সূত্র:

$S(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}$

এখানে:

a(i) হল ডেটা পয়েন্ট i এর নিজের ক্লাস্টারের সাথে গড় দূরত্ব।
b(i) হল ডেটা পয়েন্ট i এর অন্য ক্লাস্টারের সাথে গড় দূরত্ব।

Silhouette Score এর ব্যাখ্যা:

S(i) = +1: ডেটা পয়েন্টটি সঠিক ক্লাস্টারে আছে এবং অন্য ক্লাস্টারের থেকে যথেষ্ট দূরে।
S(i) = 0: ডেটা পয়েন্টটি দুটি ক্লাস্টারের মধ্যে সীমান্তে রয়েছে।
S(i) = -1: ডেটা পয়েন্টটি ভুল ক্লাস্টারে রয়েছে এবং অন্য ক্লাস্টারের কাছাকাছি অবস্থান করছে।

Silhouette Score এর সাধারণ ব্যবহার:

Positive Silhouette Value: যদি বেশিরভাগ ডেটা পয়েন্টগুলির Silhouette Score +1 এর কাছাকাছি হয়, তবে এটি একটি ভাল ক্লাস্টারিং নির্দেশ করে।
Negative Silhouette Value: যদি Silhouette Score খুব কম বা নেতিবাচক হয়, তবে ক্লাস্টারগুলির মধ্যে অনেক overlap থাকতে পারে, এবং ক্লাস্টারিং এর মান খারাপ হতে পারে।

Silhouette Score এর মোট স্কোর:

Overall Silhouette Score ক্লাস্টারিং এর পুরো সেটের জন্য গড় Silhouette Score হয়:

$S_{\text{total}} = \frac{1}{N} \sum_{i=1}^{N} S(i)$

যেখানে $N$ হল ক্লাস্টারে থাকা মোট পয়েন্টের সংখ্যা।

Silhouette Score উদাহরণ

ধরা যাক, আমরা একটি 2D ডেটাসেট নিয়ে একটি ক্লাস্টারিং মডেল প্রয়োগ করেছি এবং আমরা বিভিন্ন সংখ্যক ক্লাস্টার পেয়েছি। এখন, আমরা এই ক্লাস্টারিং এর Silhouette Score গণনা করতে চাই।

প্রথমে, আমরা প্রতিটি ডেটা পয়েন্টের জন্য a(i) এবং b(i) হিসাব করি।
তারপরে, আমরা প্রতিটি ডেটা পয়েন্টের জন্য S(i) স্কোর বের করি।
শেষে, আমরা সমস্ত ডেটা পয়েন্টের Silhouette Score গড় করি এবং মোট Silhouette Score পেতে পারি।

Silhouette Score এর সুবিধা:

Clustering Quality: এটি ক্লাস্টারিংয়ের কার্যকারিতা মূল্যায়ন করতে সহজ এবং দ্রুত।
Range of Values: Silhouette Score-এর মান -1 থেকে +1 এর মধ্যে থাকে, যা সহজে বিশ্লেষণ করা যায়।

সারাংশ

Clustering Evaluation একটি গুরুত্বপূর্ণ প্রক্রিয়া যা আপনাকে আপনার ক্লাস্টারিং মডেলটির কার্যকারিতা মূল্যায়ন করতে সহায়তা করে। Silhouette Score হল একটি জনপ্রিয় এবং কার্যকরী মেট্রিক যা compactness এবং separation উভয়কেই মূল্যায়ন করে, এবং এটি ক্লাস্টারিংয়ের মান সম্পর্কে একটি পরিষ্কার ধারণা দেয়। একটি উচ্চ Silhouette Score ক্লাস্টারিংয়ের ভালো পারফরম্যান্স নির্দেশ করে, এবং নেতিবাচক স্কোর বা 0 এর কাছাকাছি মান খারাপ বা অসম্পূর্ণ ক্লাস্টারিং এর ইঙ্গিত দেয়।

Content added By

SATT Academy

Clustering এর ভূমিকা এবং ব্যবহার K-Means Clustering এবং Hierarchical Clustering DBSCAN এবং Fuzzy Clustering Techniques

Clustering Evaluation এবং Silhouette Score

Clustering Evaluation:

Silhouette Score

Silhouette Score এর গাণিতিক সূত্র:

Silhouette Score এর ব্যাখ্যা:

Silhouette Score এর সাধারণ ব্যবহার:

Silhouette Score এর মোট স্কোর:

Silhouette Score উদাহরণ

Silhouette Score এর সুবিধা:

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Clustering Evaluation এবং Silhouette Score

Clustering Evaluation:

Silhouette Score

Silhouette Score এর গাণিতিক সূত্র:

Silhouette Score এর ব্যাখ্যা:

Silhouette Score এর সাধারণ ব্যবহার:

Silhouette Score এর মোট স্কোর:

Silhouette Score উদাহরণ

Silhouette Score এর সুবিধা:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!